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摘 要 : [ 目的/ 意义] 通过 构建 二 模 复 杂 网 络 模型 ,揭示 隐藏 在 海量 文献 中 的 隐 性 知识 。[ 方法 /过 程 ] 通 过 NetworkX 复杂 
网 络 工具 包 ,依据 任意 两 个 节点 的 共 现 关系 构建 二 模 复 杂 网 络 模型 ;对 网 络 模型 中 节点 的 共 现 关系 进行 加 权 , 计 
算 网 络 的 拓扑 信息 并 进行 AP 聚 类 ,提取 节点 间 的 直接 关系 ;采用 AUC 方法 对 AA、JC、 加 权 改 进 的 wAA de wC 等 
4 种 链 路 预测 算法 进行 评价 ,中 选 出 最 合适 的 预测 算法 ,并 对 复杂 网 络 的 隐 性 关系 进行 预测 分 析 。[ 结果 /结论 ] 
一 只 潜在 药物 苇 点 挖 所 为 例 进行 的 实证 研究 结果 表明 ，,wAA 链 路 预测 算法 为 最 优 的 链 路 预测 算法 ;二 模 复杂 网 络 模 
S ”型 .指标 和 方法 体系 在 美国 化 学 文摘 社 数据 库 中 的 药物 靳 点 挖 气 中 具有 一 定 的 有 效 性 。 下 一 步 计划 在 其 他 数据 
Do 库 中 或 其 他 研究 领域 中 进行 尝试 ,以 进一步 验证 该 模型 的 通用 性 和 有 效 性 。 
eg. 隐 性 知识 ” 链 路 预测 复杂 网 络 药物 靶 点 ”疾病 
(DES: G250 
fo 
"n [ 言 递 推 关系 ,可 推 知 A 和 C 存在 着 一 定 逻 辑 联系 。 大 量 
en 的 文献 集聚 使 研究 内 容 彼此 之 间 的 关系 呈现 一 种 高 度 
和 今 社会 处 于 知识 爆炸 的 大 数据 时 代 , 大 量 的 资 复杂 性 的 网 络 , 人 研究 人 员 也 可 以 通过 知识 网 络 对 相关 


料 时 经 超出 了 人 类 对 知识 的 吸收 能 力 。 随 着 各 学 科研 


到 科研 人 员 的 关注 和 重视 。 知 识 从 表现 形式 上 有 
显 释 知识 和 隐 性 知识 之 分 。 相 对 于 显 性 知识 来 说 , 隐 
性 晒 识 由 于 不 易 模仿 和 复制 等 特点 "… ,成 为 研究 人 员 
不 哪 创新 的 关键 要 素 。 如 何 挖掘 隐藏 在 海量 文献 中 的 
隐 性 知识 是 研究 人 员 今 后 具备 核心 竞争 优势 的 根本 ， 
也 是 当前 大 数据 时 代 必 须 面临 的 机 遇 和 挑战 。 
早期 对 隐 性 知识 的 挖掘 主要 基于 “ 非 相 关 文献 的 
知识 发 现 模型 ”, 即 ABC 模型 理论 。ABC 模型 是 美国 
芝加哥 大 学 的 情报 学 教授 D. R. Swanson 于 1987 年 提 
出 的 知识 发 现 方法 ,其 基本 思想 是 对 两 组 非 相 关 的 
文献 集 A 和 C ,如 果 一 组 文献 表明 A 可 以 导致 B 发 生 ， 
而 另 一 组 文献 表明 B 可 以 导致 C 发 生 ,那么 通过 逻辑 


的 隐 性 知识 进行 挖掘 。 
链 路 预测 作为 复杂 网 络 数据 挖掘 领域 的 研究 方向 
之 一 ,主要 利用 现 有 的 网 络 信息 ,预测 已 存在 但 尚未 被 
发 现 的 关系 ,或 目前 不 存在 但 应 该 存在 或 者 未 来 很 可 
能 存在 的 关系 ” 。 目 前 链 路 预测 的 研究 方法 包括 基 
于 邻居 节点 的 Admaic-Adar( AA) ” Jaccard(JC) $, 
基于 路 径 的 Katz "^ , FriendLink ”等 ,以 及 基于 随机 游 
走 的 Random walk with restart ( RWR)' , Local random 
walk ( LRW) 等 。 

链 路 预测 在 生物 医学 领域 的 挖掘 已 经 取得 了 一 系 
列 的 成 果 , 主 要 集中 在 对 非 结 构 化 的 电子 病历 库 、Uni- 
Prot 等 实验 数据 库 、Web of Science 数据 库 、 PubMed 数 
据 库 等 中 分 析 挖 气 疾 病 与 疾病 "”"” 基因 与 疾病 、 
基因 与 蛋白 ” 、 蛋 白 与 蛋白 “等 的 相互 关联 。 但 是 
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6 ,数据 来 源 较为 单一 ,此 前 的 研究 主要 来 源 于 病例 库 
或 专利 库 或 论文 库 , 但 未 将 相关 数据 库 的 信息 进行 整 
合 分 析 ,预测 信息 会 存在 遗漏 的 可 能 ;其 次 ,关联 节点 
有 限 , 此 前 采用 的 研究 方法 未 涉及 在 两 个 节点 组 成 的 
网 络 中 同类 节点 的 关系 。 

美国 化 学 文摘 社 数 据 库 是 全 球 最 大 的 化 学 和 相关 
学 科 信 息 的 集成 者 ,不 仅 包含 论文 数据 和 专利 数据 ,还 
对 收录 的 基因 和 蛋 白质 药物 等 物质 数据 进行 了 标 引 。 


Mr 


点 复杂 性 复杂 网 络 的 节点 可 能 存在 多 种 不 同类 型 的 
节点 ;四 各 种 复杂 性 因素 的 相互 影响 对 复杂 网 络 来 
说 ,各 种 各 样 的 因素 可 能 都 会 产生 不 同 的 影响 和 作用 
且 网 络 与 网 络 直 接 可 能 也 存在 某 种 联系 。 
二 模 复 杂 网 络 是 复杂 网 络 的 一 种 表示 模式 ,由 两 
种 类 型 的 节点 构成 。 二 模 复杂 网 络 模 型 可 以 用 公式 G 
-(T, D, LR. Khi, T A D 分 别 代表 任意 两 个 关 
联 的 节点 ,L 代表 任意 两 个 节点 的 关联 关系 。 
本 文采 用 的 二 模 复杂 网 络 与 一 般 的 二 分 网 络 有 所 
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多 种 来 源 的 数据 进行 分 析 可 以 更 完整 地 揭示 整个 领 
域 的 隐 性 知识 。 因 此 ,本 文采 用 二 模 复杂 网 络 链 路 预 
测 的 方法 ,对 美国 化 学 文摘 社 中 的 论文 .专利 和 物质 等 
数据 进行 分 析 ,深入 挖掘 其 中 的 隐 性 知识 ,并 以 潜在 药 
物 更 点 挖 气 为 实证 研究 ,一 定 程度 为 节省 新 药 研发 时 
iB 定 参 考 。 
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Python 平台 | NetworkX 工具 包 
HERA - 疾病 二 模 复杂 网 络 模型 G=(T,D,L) 


提取 二 模 复 杂 网 络 图 拓扑 结构 基本 属性 
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提取 二 模 复 杂 网 络 直接 关系 尊 选 最 优 链 路 预测 方法 


预测 二 模 复 杂 网 络 隐 性 关系 


1 二 模 复 杂 网 络 预 测 路 线 


2.1 构建 二 模 复杂 网 络 模型 
在 复杂 网 络 中 ,节点 代表 真实 世界 中 不 同 的 个 体 ， 
边 代 表 个 体 间 的 关系 , 当 两 个 不 同 节点 之 间 具 有 某 种 
特定 关系 时 则 连 一 条 边 , 反 之 则 不 连 边 ,其 中 ,两 个 有 
边 连 接 的 节点 在 网 络 中 称 为 邻接 节点 。 
与 规则 网 络 和 随机 网 络 不 同 , 复 杂 网 络 呈 现 出 高 
度 的 复杂 性 ,主要 体现 在 三 个 方面 :中 结构 复杂 性 复 
杂 网 络 的 连接 结构 非常 复杂 ,可 能 随时 发 生变 化 ;@ 节 


不 同 。 在 二 分 网 络 中 ,同一 类 型 的 节点 之 间 没 有 边 相 
连 ,不 同类 型 的 节点 才 有 边 相 连 。 在 本 研究 中 ,L 代表 
的 关系 为 基于 文本 共 现 提取 的 相关 性 ,同一 类 型 的 节 
点 (如 D1 5j D2, TI 与 了 2) 之 间 必 然 存 在 文本 的 共 现 
相关 性 , 且 该 相关 性 对 于 节点 之 间 的 隐 性 关联 来 说 具 
有 重要 作用 。 因 此 ,本 文 的 研究 依然 保留 同类 节点 的 
关系 ,只 是 引入 一 个 参数 达到 对 不 同类 型 节点 的 连 边 
取 不 同 权重 的 目的 。 
2.2 提取 二 模 复 杂 网 络 直接 关系 
复杂 网 络 拓扑 结构 的 基本 属性 与 预测 方法 的 性 能 

密 不 可 分 ,以 下 对 其 进行 简单 介绍 。 网 络 效率 指 的 
是 全 部 节点 间 的 距离 个 数 和 的 平均 值 ;节点 度 指 的 是 
网 络 中 一 个 节点 直接 连接 的 节点 个 数 ; 平 均 聚 集 系数 
指 的 是 网 络 中 包含 任意 一 个 节点 的 三 角形 结构 比例 的 
平均 值 ; 同 配 系数 指 的 网 络 度 和 度 的 相关 性 ,用 来 衡量 
节点 之 间 连 接 的 倾向 性 ;平均 度 指 的 是 对 网 络 中 所 有 
节点 的 度 值 求 平均 值 。 

复杂 网 络 中 直接 关系 的 提取 主要 通过 利用 Sim- 
Rank 相似 度 计算 网 络 图 的 方式 计算 ,并 根据 相关 结果 
进行 AP 聚 类 ,以 提取 节点 间 已 知 关系 特征 。 其 中 ， 
SimRank 相似 度 指 的 是 如 果 两 个 节点 所 连接 的 节点 相 
似 , 那 么 这 两 个 节点 就 相似 ,其 基于 网 络 图 的 拓扑 结 
构 , 利 用 递归 的 定义 方式 可 以 捕捉 到 网 络 图 结构 的 整 
体 信息 

与 传统 的 文本 相似 度 相 比 ， SimRank 相似 度 的 计 

完全 基于 网 络 图 的 拓扑 结构 ,其 递归 的 定义 方式 能 

使 SmRank 相似 度 的 值 捕捉 到 图 结构 的 整体 信息 。 与 
Google 的 PageRank 算法 只 能 衡量 每 个 结 点 的 重要 性 
相 比 ,SimRank 相似 度 能 比较 任意 两 个 结 点 间 的 相似 
度 问 题 ,因此 ,SimRank 在 计算 该 网 络 的 相似 矩阵 方法 
具有 一 定 的 优势 。 

其 中 ,SimRank 的 计算 公式 为 S$S=C-.(W :S- 
W) + (1-C) -L 该 公式 中 ,5 为 相似 度 矩 阵 ,W 为 
邻接 矩阵 ,C 为 衰减 因子 ,I 为 单位 矩阵。 在 本 文 实 验 
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中 ,W 为 加 权 的 邻接 矩阵 , RAKAO 20 
2.3 直接 关系 的 AP RŽ 
AP 聚 类 指 的 是 按照 一 定 的 规则 在 节点 之 间 传 递 
信息 ,在 多 次 迭代 过 程 中 出 现 聚 类 中 心 ,进而 实现 数据 
点 的 自动 聚 类 ,具有 聚 类 速度 快 , 对 输入 相似 度 矩 阵 的 
三 角 不 等 式 和 对 称 性 没有 要 求 、 且 可 以 适用 于 多 种 场 
A 5E UL 777, AP 聚 类 的 优势 是 可 以 不 用 人 为 设置 
初始 的 类 中 心 ,主要 根据 相似 矩阵 本 身 的 特征 逐渐 达 
到 聚 类 收敛 的 效果 。 根 据 SimRank 计算 出 相似 和 矩阵， 
构建 节点 的 向 量 , 计 算 公 式 为 Node_veci = [Si ,Sa ，… 
$,,,$,], i, jeN. 
AP 聚 类 算法 源 于 skleam 工具 包 , 其 主要 参数 包 


括 affinity =“euclidean ’ , convergence, iter = 15, copy = 


True; damping = 0. 5, max, iter = 200, preference = 
None , verbose = False, AP RŽ IJ E El aJ] p^ 4p 2I 


的 数量 ,一 开始 其 类 复数 量 超过 400 个 ,在 可 视 化 之 
族 济 一 步 将 类 簇 中 心 进 行 适 代 夹 类 ,获得 类 秘 数 量 为 
28. 

2p 送 选 最 优 链 路 预测 方法 


N 


链 路 预测 是 复杂 网 络 研究 的 一 个 重要 方向 ,主要 
通通 网 络 中 已 知 节点 的 节点 度 ,节点 对 之 间 的 路 径 、 网 
颖 网 平均 最 短 距离 .网络 的 乌 系 数 等 拓扑 结构 信息 对 
网 络 进 行 相似 性 度量 ,预测 复杂 网 络 中 尚未 产生 连接 
的 蕊 个 节点 之 间 产 生 连 接 的 可 能 性 “1。 本 文 基于 
侈 生 节点 的 链 路 预测 方法 ,通过 引入 加 权 参 数 a 对 
AASIC 等 算法 进行 加 权 处 理 ,其 中 ,二 模 网 络 中 的 同类 
型 医 点 和 不 同类 型 节点 也 均 进 行 了 加 权 处 理 。 
Oh A 种 算法 的 具体 公式 如 下 : 


1 
(1)AAuv = Toerwonrwioal To)T 


w(u,o)* *w(v,o)^ 
oeel(u)nr(v) log(1 -wlI(o) I) 


Iru) nD(v)l 
IT(u) UID (v) 


wlP(u)npr(v)l 
Iu) Uro) — 


之 crtonrto) Wu, w)* *w(v,o)* 
wlr(u) | *wlI'(v)l 

Rp eC Tu) RAR u 的 邻居 节点 ,w1T(u)|= 
X era) € (w,x)*5 o 为 加 权 人 参数 , 当 (w,x) e (T,D), 
a=1; 当 (wx*)s(T,T) 或 者 (D,D),a=0。 

AA 算法 是 指 将 不 同 的 权重 分 配给 该 公共 邻居 集 
合 中 的 不 同 节 点 ,每 个 节点 的 权重 等 于 该 节点 的 度 的 
对 数 分 之 一 ; wAA 算法 是 指引 入 加 权 参 数 a 之 后 的 


(2)wAA ， =È 


(3)JCuv = 


(4) wIC,, = 


AA 算法 ,参数 a 的 取 值 使 得 同类 型 节点 的 权重 下 降 ， 
不 同类 型 节点 的 权重 保持 与 原始 共 现 值 呈 正比 ;JC 算 
法 是 指 两 个 节点 的 共同 邻居 节点 占 两 个 节点 邻居 节点 
总 和 的 比例 来 表示 节点 的 相似 性 ;wJC 算法 是 指引 入 
加 权 参 数 oc 之 后 的 JC 算法 ,参数 a 作用 与 上 述 在 wAA 
算法 时 一 样 。 
2.5 链 路 预测 方法 的 评价 

本 文采 用 AUC (area under the receive operation 
characteristic Curve) 方法 对 AA JC. 加权 改 进 的 wAA 
和 wJC 等 4 种 链 路 预测 算法 进行 评价 。AUC 是 指 
ROC 曲线 (receiver operating characteristic curve) 下 的 面 
积 , 是 衡量 链 路 预测 算法 精确 度 最 常用 的 一 种 标准 。 
AUC 从 整体 上 衡量 算法 的 精确 度 ,采用 十 倍 交叉 验证 
的 方法 ,从 有 边 的 关系 对 中 随机 提取 10% 后 任意 切割 
为 十 份 ,包括 九 份 训练 集 和 一 份 为 测试 集 ,随后 对 测试 
集 进 行 预 测 。 将 十 次 预测 后 的 结果 求 平均 得 到 AUC, 
该 指标 通过 公式 AUC = (n' +0.5n”)/n 计算 。 其 中 ,n 
为 比较 次 数 ,n' 为 测试 集 边 的 预测 值 大 于 不 存在 边 的 
次 数 ,为 测试 集 边 预测 值 等 于 不 存在 边 的 次 数 ” 。 


3 ”实验 结果 分 析 


近年 来 , 随 着 科研 人 员 对 疾病 机 理 的 深入 了 解 和 
技术 手段 的 不 断 进步 , 靶 向 药物 治疗 发 挥 着 越 来 越 重 
要 的 作用 ,因此 靶 点 研究 也 成 为 了 新 药 开 发 的 重要 研 
究 方向 。 本 文通 过 构建 苍 点 -疾病 二 模 复 杂 网 络 , 根 
据 已 知 靶 点 与 疾病 的 关系 ,预测 治疗 疾病 的 尚未 被 发 
现 的 其 他 有 效 靶 点 ,一 定 程度 上 将 为 提高 新 药 研 发 进 
程 、 节 省 研发 开支 和 降低 研发 风险 提供 一 定 的 参考 。 
3.1 数据 来 源 和 加 工 

本 文 以 美国 化 学 文摘 社 数据 库 为 文献 来 源 ,从 中 
提取 出 与 抗体 药物 相关 的 514 539 篇 论文 和 专利 ,以 及 
其 包含 的 抗体 物质 ,数据 获取 日 期 截至 2018 年 上 半 
年 。 对 相关 文献 数据 进行 深度 标 引 ,将 其 中 涉及 的 疾 
病 、 诅 点 ,物质 ,以 及 其 他 的 标签 进行 人 工 清洗 和 合并 ， 
形成 1015 个 抗体 靶 点 .3 867 种 疾病 标签 库 。 其 中 , 肿 
瘤 类 疾病 是 疾病 标签 库 中 最 大 的 一 个 分 文 ,数量 为 
2 137 种 (部 分 肿瘤 节点 与 其 他 疾病 种 类 有 重重 ,总数 
中 已 经 去 重 ) 。 

3.2 构建 二 模 复杂 网 络 模型 

本 文采 用 靶 点 和 疾病 两 个 关联 词 为 节点 ,分 别 命 
名 为 下 和 Di, 将 二 者 在 文献 中 的 共 现 关系 命名 为 Leo 
基于 Python 语言 ,利用 NetworkX 工具 包 构 建 二 模 复杂 
网 络 模型 ,并 用 公式 G = (了 ,Di, LUN, HPF, IR 
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以 潜在 药物 靶 点 me pi pa VRARE 


据 3.1 的 数据 加 工 结果 ,7 为 1015,D 39 3 867, LH 
911 479, 

利用 NetworkX 工具 包 , 对 靶 点 -疾病 网 络 拓扑 结 
构 进 行 分 析 。 依 据 任意 靶 点 T, 和 疾病 D; 两 个 节点 的 


共 现 词 频 对 节点 间 的 关系 进行 加 权 , 计 算 网 络 节 点 的 
节点 数 , 边 ,效率 .平均 聚集 系数 .加 权 聚 集 系 数 、 同 配 
系数 和 平均 度 等 ,如 表 1 所 示 : 


R1 ， 靶 点 -疾病 二 模 复 杂 网 络 拓扑 结构 基本 属性 
节点 数 (7T+D) 边 效率 平均 聚集 系数 加 权 聚 集 系数 同 配 系数 平均 度 
4 882 911 479 0.3879 0.666 1 6.158 7 x10 4 -0.293 4 373.4 


3.3 提取 二 模 复 杂 网 络 直接 关系 
利用 SimRank 相似 度 计算 网 络 图 的 拓扑 信息 , 采 
用 AP 聚 类 对 相似 矩阵 进行 聚 类 ,形成 包含 28 MÍR 


WILI -疾病 二 模 复杂 网 络 直接 关系 聚 类 图 。 其 中 ， 
每 种 颜色 代表 一 个 类 复 ,如 图 2 所 示 : 
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类 艇 节点 数量 大 于 500 的 巨型 类 艇 共有 两 个 ,分 
MERIR 10 (2 741 个 节点 ) 和 类 复 14 (563 个 节点 ) 
( 见 表 2) , KPE 10 是 靶 点 -疾病 的 关系 对 数量 最 多 
的 类 簇 , 共 包 含 672 个 靶 点 节点 和 2 069 个 疾病 节点 。 
在 类 复 10 WIERA P ,与 疾病 存在 关联 的 数量 最 多 
的 三 个 靶 点 分 别 是 epidermal growth factor receptor car- 
cinoembryonic antigen 和 Notch ligand DLLA ; Æ X fA 10 
的 疾病 节点 中 ,与 靶 点 存在 关联 的 数量 最 多 的 三 种 疾 
JODIE WEK (Tendinitis) .血细胞 减少 ( Cytopenia ) 
和 原 发 性 硬化 性 胆管 炎 ( Primary sclerosing cholangi- 


SU x - 疾病 二 模 复杂 网 络 直接 关系 聚 类 图 


deficiency ) 。 
3.4 BARAER E 

表 3 对 各 预测 算法 所 计算 的 关系 对 中 ,预测 值 大 
于 0 的 关系 对 以 及 节点 和 疾病 的 数量 进行 统计 。 其 
中 ,疾病 代表 所 有 疾病 的 全 局 网 络 ,肿瘤 代表 肿瘤 类 疾 
病 的 子 网 络 。 肿 瘤 网 络 是 在 全 局 网 络 预测 后 ,提取 出 
来 与 肿瘤 相关 的 局 部 网 络 。 首 先 ,wAA 与 AA,wjC 与 
JC 在 预测 值 的 数量 上 分 别 相同 ,表明 加 权 后 的 算法 不 
会 遗漏 靶 点 和 疾病 的 统计 ;其 次 ,AA(CwAA) 与 JC 
(CwJC) 之 间 是 有 差异 的 ,在 疾病 网 络 中 的 差异 较 小 ,在 


tis), KFE 14 是 靶 点 -疾病 的 关系 对 数量 位 列 第 二 位 
的 类 复 , 共 包含 77 AP SETS SUNL 486 个 疾病 节点 。 其 
中 ,在 类 复 14 的 靶 点 节点 中 ,与 疾病 存在 关联 的 数量 
最 多 的 三 个 靶 点 分 别 是 CD80 antigen, Ganglioside CD3 
和 Tumor-associated glycoprotein 72 ;在 类 复 14 的 疾病 节 
点 中 ,与 靶 点 存在 关联 的 数量 最 多 的 三 种 疾病 分 别 是 
EL BTE ( Autism) 、 先 天 性 心脏 病 ( Congenital heart dis- 
ease ) 和 严重 联合 免疫 缺陷 病 (Severe combined immuno- 


肿瘤 网 络 中 的 差异 比较 明显 。 在 肿瘤 网 络 中 , AA 
(wAA ) 在 预测 的 关系 对 数量 高 于 JC(wJC) ,但 在 疾病 
数量 中 低 于 后 者 。 

从 表 4 可 以 看 出 ,采用 AUC 方法 对 AA JC wAA 
和 wjJC 等 4 种 链 路 预测 算法 进行 评价 , wAA 算法 的 
AUC 值 最 高 (0.971 4) ,为 最 优 的 链 路 预测 算法 ,因此 
本 文 的 实证 分 析 是 基于 wAA 算法 的 结果 进行 分 析 。 
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表 2 TOP 28 靶 点 -疾病 的 AP 聚 类 分 布 


Kik WA WAT 疾病 节 : m . 
= "- XE XC TOP 3 靶 点 数量 节点 TOP 3 疾病 数量 节点 
标号 。 总 数 。 点 数量 点 数量 
0 14 4 10 CD3 antigen; Blood-coagulation factor IX; Blood-coagulation Neuroendocrine system neoplasm; Blood coagulation disor- 
factor X ders ; Hemophilia A 
1 75 25 50 Sialic acid-binding Ig-like lectin 2; CD4 antigen;FceRI receptor Macular degeneration ; Epilepsy ; Irritable bowel syndrome 
2 6 6 0 Monocyte chemoattractant protein-1; Chemokine CXCLI2; = 
RANTES (chemokine) 
3 9 1 8 Glucagon-like peptide I Metabolic syndrome X ; Hyperglycemia ; Sleep disorders 
4 24 12 12 Angiopoietin 2; Paliperidone; Heparin-binding EGF-like Cerebral palsy ; Arterial thrombosis ; Decubitus ulcer 
growth factor 
5 2 1 1 Gingipain R Periodontal disease; 
6 4 3 1 Viral envelope glycoprotein UL130; Viral envelope glycopro- Vascular endothelium disease 
tein H; Viral envelope glycoprotein L 
7 p 0 2 = Chronic hepatitis LT hepatitis B ; Acute hepatitis B 
8 66 5 6l CD20 antigen ; Tyrosine kinase receptor HER2; Vascular endo- Rheumatoid arthritis; Mammary gland neoplasm ; Autoimmune 
thelial growth factor disease 
Ug 120 3 117 Integrin aM ;Sialic acid-binding Ig-like lectin 3; Cytotoxic T- Hypertension ;Parkinson disease ; Myocardial infarction 
> lymphocyte-associated protein 4 
Mo 2741 672 2069 epidermal growth factor receptor; carcinoembryonic antigen; Tendinitis ; Cytopenia ; Primary sclerosing cholangitis 
村 Notch ligand DLLA 
Q 16 2 14 Ki-67 antigen ; Transferrin receptor Fertility disorders LT male; Familial adenomatous polyposis ; 
e Atrophic gastritis 
| 487 63 424 Interleukin 1a; B7 homolog 3 protein; Sphingosine l-phos- ^ Kidney injury ; Trypanosomiasis ; Gallbladder disease 
er phate 
C 257 13 244 Hepatocyte growth factor; Epidermal growth factor receptor Hepatic fibrosis ; Hypothyroidism ; Nerve disease 
eo HERZ ; Interleukin 4 
Cu 563 TI 486 CD80 antigen; Ganglioside GD3 ; Tumor-associated glycopro- Autism; Congenital heart disease ; Severe combined immunode- 
O tein 72 ficiency 
CY 1 0 1 一 Pemphigus foliaceus 
m" 
~% 4 3 1 T cell receptor aß ; Cathepsin K ; L-Lactate dehydrogenase Immunosuppression LT cellular 
Se 60 11 49 Advanced glycosylation end product receptor; Interleukin 33; Charcot-Marie-Tooth disease; Hypertrophic cardiomyopathy; 
Langerin Aortic stenosis 
Gi 29 15 14 Lymphocyte activation gene-3 protein; Integrin a V6; CD28 Acute B-cell leukemia; Influenza type A; Kidney ischemia 
c antigen 
LE 2nd 
E as 21 15 6 Fibroblast growth factor receptor 1; g-Klotho protein; B cell — Thrombus ; Wound infection ; Atherothrombosis 
T receptor 
20 18 7 11 Neural apoptosis-regulated convertase 1; MADCAM-1 protein; ^ Hypercholesterolemia; Nerve injury; Pancreatic adenocarcino- 
Zaire ebolavirus ma 
21 17 4 13 Blood serum albumin; Tumor necrosis factor receptor 1; Hu- Cerebrovascular disease; Polycystic ovary syndrome; Ovarian 
man albumin disease 
22 132 3 129 B-Amyloid ; Mucin 1 ; Integrin aV Muscle disease ; Cardiac arrhythmia ; Arteriosclerosis 
23 4 1 3 Insulin receptor Hyperglycemia LT glucose intolerance ; Hyperinsulinemia ; Hy- 
perphagia 
24 8 1 7 Vascular endothelial growth factor B Alport syndrome;Albuminuria;Osteodystrophy 
25 104 7 97 Interleukin 2 receptor; Interleukin 6 receptor; Integrin o4 Vascular disease;Hepatitis C ; Traumatic injury 
26 2 0 2 - Trisomy ; Human trisomy 8 syndrome 
27 94 65 29 Bone morphogenetic proteins, sclerostin; Prostaglandin E2;P- ^ Erysipelas;Stevens-Johnson syndrome ; Erythroblastosis fetalis 


selectin 


RI 预测 结果 的 节点 和 关系 对 数量 表 4 二 模 复杂 网 络 的 指标 评价 
算法 AR (WAA) JC(wJC) 指标 AA wAA JC WC 
疾病 肿瘤 疾病 肿瘤 
预测 的 关系 对 (预测 值 >0) 2544973 393149 2544973 370649 AUC 0.948 5 0.971 4 0.882 6 0.969 8 
i Ru s 1 015 1 015 1 015 1 015 
涉及 疾病 数 3 726 515 3 710 996 
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3.5 ”预测 二 模 复 杂 网 络 隐 性 关系 

本 文 预测 的 所 有 关系 对 超过 200 万 条 ,在 预测 值 越 高 
关系 对 成 立 可 能 越 大 的 基础 上 ,利用 NetworkX 工具 包 , 以 
wAA 算法 的 结果 为 依据 ,筛选 TOP100 JE -疾病 的 关系 
对 ,将 靶 点 -疾病 的 复杂 网 络 关系 进行 可 视 化 展示 ( 见 图 


3)。 其 中 ,红色 圆圈 代表 靶 点 , 蓝 色 方 框 代 表 治 疗 的 疾病 ， 
绿色 实 线 代表 靶 点 与 疾病 之 间 的 直接 关系 , 即 已 知 蘑 个 靶 
点 与 治疗 某 种 疾病 存在 关联 关系 ,紫色 虚线 代表 靶 点 与 疾 
病 之 间 的 隐 性 关系 , 即 某 个 靶 点 可 能 与 治疗 某 种 疾病 存在 
关联 关系 ,线条 的 粗细 代表 关系 的 强 弱 。 
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.三 由 图 中 可 以 看 出 ,在 TOP100 WEA -疾病 关系 中 ， 
部 攻关 系 最 为 密切 的 5 个 关系 对 分 别 是 :表皮 生长 因 
Tk ( Epidermal growth factor receptor ) 和 CD20 抗原 
Co antigen) 表皮 生长 因子 受 体 和 血管 内 皮 生 长 因 
T ascular endothelial growth factor) 表皮 生长 因子 受 
体 和 Tyrosine kinase receptor HER2 .CD20 抗原 和 Tyro- 
sine kinase receptor HER2 .CD20 抗原 和 Integrin aM 等 。 

细胞 毒性 了 淋巴 细胞 相关 和 蛋白 4(Cytotoxic T-Iym- 
phocyte-associated protein 4, CTLA 4) ) 和 程序 性 细胞 死 
亡 蛋 白 1(Programmed cell death protein 1, PD-1) 能 
增强 特异 性 抗 肿瘤 的 免疫 反应 ,是 免疫 检查 点 疗法 的 
两 个 重要 靶 点 ,日 James P. Allison 教授 因 发 现 了 针对 
CTLA34 的 免疫 检查 点 疗法 和 Tasuku Honjo 教授 (发 现 
PD-1 免疫 检查 点 疗法 ) 一 同 获得 2018 年 诺 贝 尔 生 理 
学 或 医学 奖 。 从 TOP20 HEA -疾病 的 间接 关系 对 中 
可 以 看 出 ,以 CTLA 4 为 靶 点 的 药物 治疗 反应 性 关节 炎 
( Reactive arthritis) 的 预测 值 最 高 ,预测 其 还 可 以 治疗 
心绞痛 (Angina pectoris) 成 人 呼吸 窘迫 综合 征 (Adult 
respiratory distress syndrome ) 和 雷诺 综合 征 (Raynaud 


disease) 等 ,相关 预测 值 分 别 排名 为 第 12 位 、17 位 和 
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3 TOP100 靶 点 与 疾病 的 直接 关系 和 间接 关系 


19 位 。 以 PD-1 为 靶 点 的 药物 治疗 反应 性 关节 炎 (Re- 
active arthritis) 的 预测 值 排名 第 2 位 ,预测 其 还 可 以 治 
疗 同 种 异体 移植 排斥 反应 (Allotransplant rejection ) 和 
结缔 组 织 疾病 (Connective tissue disease ) ,相关 预测 值 
分 别 排名 为 第 13 位 和 第 14 位 。 

血管 内 皮 生 长 因子 (Vascular endothelial growth 
factor) 也 是 抗 肿瘤 药物 的 重要 靶 点 之 一 。 从 表 5 可 以 看 
出 ,以 血管 内 皮 生 长 因子 为 对 点 的 药物 预测 治疗 疾病 的 
种 类 最 多 ,包括 Wiskott-Aldrich [& JE fx f£ ( Wiskott- 
AldrichSyndrome) .白喉 (Diphtheria) 阴道 炎 
口腔 疾病 (Mouth disease) 百日咳 (Pertussis) 和 中 枢 神 
经 系统 炎症 (Central nervous system inflammation ) 等 。 
由 于 在 靶 点 -疾病 隐 性 关系 预测 中 未 能 展示 较 多 
靶 点 -肿瘤 的 隐 性 关系 ,加 上 肿瘤 在 疾病 标签 库 中 所 
占 比例 较 高 ,因此 将 靶 点 - 肿瘤 的 隐 性 关系 单列 出 来 
进行 分 析 。TOP100 靶 点 与 肿瘤 的 直接 关系 和 隐 性 关 
系 见 图 4。 从 图 4 中 可 以 看 出 ,与 肿瘤 直接 关系 最 为 密 
切 的 前 3 个 靶 点 分 别 是 CD20 抗原 (CD20 antigen) 、 栈 
氮 酸 激酶 受 体 HER2 (Tyrosine kinase receptor HER2 ) 和 
血管 内 皮 生 长 因子 (Vascular endothelial growth factor) 。 


(Vaginitis ) 、 
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表 5 TOP20 靶 点 -疾病 隐 性 关系 预测 


序号 预测 值 TUR 疾病 
1 0. 252 176 Cytotoxic T-lymphocyte-associated protein 4 Reactive arthritis 
2 0. 227 286 Programmed cell death protein 1 Reactive arthritis 
3 0. 224 872 Tyrosine kinase receptor HER2 Vaginitis 
4 0. 224 487 Vascular endothelial growth factor Wiskott-Aldrich syndrome 
5 0. 223 732 Interleukin 1g Liver neoplasm 
6 0. 223 272 Vascular endothelial growth factor Diphtheria 
7 0. 220 884 FceRI receptor Astrocytoma 
8 0.220 318 Vascular endothelial growth factor Vaginitis 
9 0. 220 090 Interleukin 12 subunit B Hodgkin disease 
10 0. 219 635 Vascular endothelial growth factor Mouth disease 
11 0. 217 389 Vascular endothelial growth factor Pertussis 
12 0.216 271 Cytotoxic T-lymphocyte-associated protein 4 Angina pectoris 
13 0.215 814 Programmed cell death protein 1 Allotransplant rejection 
14 0.214 442 Programmed cell death protein 1 Connective tissue disease 


.211 445 Tyrosine kinase receptor HER2 Central nervous system inflammation 
.211 154 Vascular endothelial growth factor Central nervous system inflammation 
. 209 907 Cytotoxic T-lymphocyte-associated protein 4 Adult respiratory distress syndrome 
. 208 939 CD20 antigen Learning disorders 


. 208 375 Cytotoxic T-lymphocyte-associated protein 4 Raynaud disease 


O 20 0. 206 707 Interleukin 6 Uterine cervical carcinoma 


4.00047v1 
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图 4 TOP100 抗体 靶 点 与 肿瘤 的 直接 关系 和 间接 关系 


Interleukin 1B 是 治疗 自身 免疫 性 疾病 和 阿尔 北海 | 排名 第 18 位 。FcsRI 受 体 (FcsRI receptor) 是 治疗 变态 
默 等 疾病 的 重要 靶 点 。 从 TOP20 4E - 肿瘤 的 间接 | 反应 性 疾病 等 重要 靶 点 之 一 。 从 表 5 可 以 看 出 ,以 
关系 对 中 可 以 看 出 ( 见 表 6) ,以 Interleukin 18 为 靶 点 FcsRI 受 体 为 靶 点 的 药物 治疗 星 形 细 胞 瘤 ( Astrocyto- 
的 药物 治疗 肝癌 (Liver neoplasm) 的 预测 值 最 高 ,预测 | ma) 的 预测 值 排名 第 2 位 ,预测 其 还 可 以 治疗 小 肠 肿 
其 还 可 以 治疗 子宫 肿瘤 (Uterus neoplasm) ,相关 预测 值 JÄ ( Small intestine neoplasm ) , z& 4 i38 ( Ependymoma ) 
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以 潜在 药物 靶 点 me pi pa vet ERRTU 


和 眼 部 肿瘤 ( Eye neoplasm) 等 疾病 ,相关 预测 值 分 别 排 
名 第 13 位 .第 19 位 和 第 20 位 。 

白介素 5( Interleukin 5 ) 是 治疗 支气管 哮喘 等 疾病 
等 重要 和 点 , 且 以 白介素 5 为 和 点 的 药物 预测 治疗 疾 
X6 TOP20 鞠 点 -肿瘤 隐 性 关系 预测 


病 的 种 类 最 多 ,包括 肝癌 (Liver neoplasm) , Af 
巴 瘤 (Non-Hodgkin lymphoma) Æ A&M EJA (Hodgkin 
disease) 神经 胶 细 胞 瘤 ( Glioma ) | #8 4 J4 ( Metastasis ) 
F= ALAPA (Testis neoplasm ) 等 。 


序号 预测 值 WA 肿瘤 

1 0. 223 732 Interleukin 1B Liver neoplasm 

2 0. 220 884 FceRI receptor Astrocytoma 

3 0. 220 090 Interleukin 12 subunit B Hodgkin disease 

4 0. 206 707 Interleukin 6 Uterine cervical carcinoma 

5 0. 203 838 Interleukin 5 Liver neoplasm 

6 0. 198 955 Interleukin 5 Non-Hodgkin lymphoma 

7 0.198 914 Interleukin 5 Hodgkin disease 

8 0. 192 688 Interleukin 13 Rhabdomyosarcoma 
q= 9 0. 190 067 Respiratory syncytial virus protein F Astrocytoma 

> 10 0.188 85 Interleukin 17A Head and neck neoplasm 

mN 11 0.185 449 CD3 antigen s-chain Carcinoid 
"t 12 0.181 121 Interleukin 12 subunit Chronic myeloid leukemia 
= 13 0. 180 465 FceRI receptor Small intestine neoplasm 
Ou 0. 179 437 Interleukin 5 Glioma 
< 十 15 0.178 568 Interleukin 2 receptor Vulva neoplasm 
O 16 0. 178 427 Interleukin 5 Metastasis 
co 17 0.178 146 Interleukin 5 Testis neoplasm 
E 18 0.177 031 Interleukin 1 Uterus neoplasm 
N 19 0. 174 786 FceRI receptor Ependymoma 
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吉 果 ,本文 以 “CTLA 4 HE 


点 网 药 物 预测 治疗 反应 性 关节 炎 心绞痛、 成 人 呼吸 窒 
扎 紧 合 征 和 雷诺 综合 征 " 为 例 ,以 Pubmed 论文 数据 库 
copat 专利 数据 库 为 验证 数据 库 , 分 别 在 题目 和 摘 


要 中 进行 信息 检索 ,时间 范 围 


限定 在 人 库 时 间 至 2018 


年 6 月 。 由 表 7 可 以 看 出 ,通过 相关 信息 检索 ,2018 年 
6 月 之 前 ,在 PubMed 论文 数据 库 和 IncoPat 专利 数据 
R7 靶 点 -疾病 隐 性 预测 关系 验证 


库 中 存在 关于 CTLA4 相关 分 子 或 蛋白 在 反应 性 关 市 
炎 心绞痛、 成 人 呼吸 窒 迫 综合 征 和 雷诺 综合 征 中 的 机 
理 和 临床 等 研究 ,但 是 这 些 论文 或 专利 未 提 及 选用 
CTLA4 作为 抗体 节点 进行 相关 疾病 治疗 。 验 证 结果 在 
一 定 程度 上 说 明 通 过 wAA 链 路 预测 算法 能 够 识别 现 
有 公开 论文 或 专利 中 未 报道 的 隐 性 知识 关联 ,为 从 事 
相关 领域 研究 的 科研 人 员 提 供 参 考 。 


PubMed IncoPat 
取 点 疾病 测 关系 凡 息 检索 结果 分 
Du 疾病 预测 关系 数据 库 检索 数据 库 检索 信息 检索 结果 分 析 
CTLA 4 Reactive arthritis 预测 以 CTLA 4 Jy $E 0 2 上 检索 到 对 比 文献 2 篇 ,主要 关于 不 同 结合 蛋白 在 临床 中 治疗 反应 
点 的 药物 治疗 反应 性 性 关节 炎 等 多 种 疾病 的 研究 ,未 提 及 选用 CTLA4 作为 抗体 靶 点 治 
Angina pectoris 预测 以 CTLA 4 3g 8 1 2 检索 到 对 比 文献 3 篇 ,主要 关于 CTLA4 相关 分 子 或 蛋白 治疗 心 
点 的 药物 治疗 心绞痛 绞 痛 的 研究 ,未 提 及 选用 CTLA4 作为 抗体 靶 点 治疗 心绞痛 的 研究 
Adult respiratory dis- ”预测 以 CTLA 4 JU 2 0 检索 到 对 比 文献 2 篇 ,主要 关于 呼吸 寄 迫 综合 征 的 机 理 研 究 , 以 
tress syndrome 点 的 药物 治疗 成 人 呼 及 CTLA4 相关 药物 治疗 1 名 癌症 患者 的 研究 (该 患者 也 患 有 严重 
WEBER AE 和 急性 呼吸 窘迫 综合 征 ) ,但 是 未 提 及 选用 CTLA4 作为 抗体 靶 点 专门 
治疗 成 人 呼吸 寄 迫 综合 征 的 研究 
Raynaud disease 预测 以 CTLA 4 Jy $8 0 1 检索 到 对 比 文献 1 篇 ,主要 关于 不 同 结合 蛋白 在 临床 中 治疗 雷诺 
点 的 药物 治疗 雷诺 综 综合 征 等 多 种 疾病 的 研究 ,但 是 未 提 及 选用 CTLA4 作为 抗体 靶 点 
合 征 治疗 雷诺 综 合 征 的 研究 
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4 讨论 


本 文 基于 Python 平台 ,利用 NetworkX 软件 包 构 建 
二 模 复杂 网 络 模型 ,选用 改进 的 wAA 链 路 预测 算法 对 
模型 进行 分 析 , 并 以 药物 靶 点 预测 为 实证 分 析 , 能 够 有 
AB HU. -疾病 二 模 复杂 网 络 中 潜在 的 药物 治疗 葛 
点 ,研究 结果 为 节省 新 药 研发 时 间 和 挖 所 药物 更 多 洪 
在 的 适应 症 提供 一 定 参考 。 

但 是 本 文 的 研究 工作 仍 有 待 改 进 :在 进行 链 路 
预测 时 ,本 文 从 基于 邻居 节点 的 链 路 预测 算法 进行 研 
究 , 未 涉及 对 基于 路 径 和 基于 随机 游 走 的 算法 ,下 一 步 
将 采用 其 他 链 路 预测 算法 进行 尝 坛 。@ 在 进行 实证 研 
究 时 ,由 于 疾病 种 类 具有 一 定 的 包含 关系 ,因此 在 预测 
时 是 否 需 要 将 同一 类 型 的 疾病 进行 合并 。 如 果 同 一 类 
型 的 疾病 进行 合并 ,在 预测 时 可 能 会 将 未 知 关系 作为 
本 娠 关系 处 理 ,这 将 漏 掉 一 些 研 究 人 员 非 常 关 注 且 很 
任 你 值 的 细节 领域 的 隐 性 关联 ;如 果 同 一 类 型 的 疾病 
5b 行 合并 ,在 预测 时 可 能 会 将 一 部 分 已 知 关系 作为 
未 短 关 系 处 理 , 这 将 给 未 知 关 系 带 来 了 一 些 “ 品 音 ”， 
y^ Wee" 的 处 理 需 要 非常 专业 的 研究 人 员 进 行人 
了 类 | 读 , 且 剔除 噪音 后 期 的 工作 量 太 大 ,如 何 有 效 的 改 
进 偿 需要 进一步 讨论 。 图 本 文 将 二 模 复杂 网 络 模型 在 
潜 神 药物 外 点 挖 气 上 进行 了 实证 研究 ,下 一 步 计划 在 
其 全 研究 领域 或 其 他 数据 库 中 进行 比较 ,以 进一步 验 
请 溪 模 型 的 通用 性 和 有 效 性 。 

人 致谢 :本 文 在 数据 分 析 方 面 还 得 到 了 美国 化 学 文摘 社 
Yi Deng、 马 清 扬 、 余 敏 等 人 员 的 帮助 和 指导 ,在 此 表示 感谢 。 
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Research on the Tacit Knowledge Discovery Based on Two-mode Complex Network 
—— Take mining Potential Drug Targets as an Example 
Li Dongqiao' Chen Fang Han Tao Yang Yanping Wang Xuezhao' 
Wang Yanpeng Cynthia Liu — Yingzhu Li 
' National Science Library, Chinese Academy of Sciences, Beijing 100190 
? Chemical Abstracts Service, Columbus, OH 43202, USA 
Abstract: | Purpose/significance | This paper aims to extract the tacit knowledge from the massive literatures 


constructing a two-mode complex network model. | Method/process | Through the NetworkX complex network 


047v1 


ctoolkit , a two-mode complex network model was constructed based on the co-occurrence relationship of any two 
Gaodes. The direct relationship between nodes and nodes was extracted by weighting the co-occurrence relationship of 
"iiodes in the network model, calculating the topology information of the network and AP clustering. The most appro- 
ate prediction algorithm was selected by using AUC method to evaluate the four link prediction algorithms , such as 
CAA, JC, wAA and wJC. The tacit knowledge was predicted by the most appropriate prediction algorithm from the 
plex networks. | Result/conclusion | The results showed that the wAA link prediction algorithm was the optimal 
link prediction algorithm. The two mode complex network model, indicators and method system were effective in drug 
target mining in the Chemical Abstracts Service database. The next step is to try in other databases or other research 
ields to further verify the generality and effectiveness of the model. 


CC Keywords; tacit knowledge link prediction complex network drug target diseases 
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